本回顧將專注於 LLM 的核心:Transformer 架構,以及它如何完成從學習到應用的整個生命週期。
大型語言模型(LLM)主要基於 Transformer 的解碼器 (Decoder) 架構。下圖展示了單一 Decoder Block 如何處理信息:
步驟 | 核心操作 | 關鍵技術與目的 |
---|---|---|
輸入層 | Tokenization $\rightarrow$ Embedding | 將原始文字轉為模型可理解的高維向量。加上 Position Encoding 賦予序列順序資訊。 |
I. 自注意力機制 | Multi-Head Self-Attention | 模型計算輸入序列中所有 Token 彼此間的關聯性(Q、K、V 矩陣)。Masking 確保生成時只能看到已生成的資訊。 |
II. 正規化與連接 | Add & Layer Normalization | 殘差連接 (Residual Connection) 避免梯度消失;層級正規化穩定每層的輸出。 |
III. 前饋網路 | Feed-Forward Layer (FFN) | 透過兩層線性變換(MLP),增強模型提取非線性特徵的能力。 |
重複 N 次 | 整個 Decoder Block 垂直堆疊 $N$ 次。 | 增加模型深度,提升模型捕捉複雜語言模式的能力。 |
輸出層 | Linear + Softmax | 將最終輸出向量轉換為詞彙表上每個詞的機率分佈,預測下一個 Token。 |
訓練階段是 LLM 從海量數據中學習語言規律、世界知識的過程,本質上是大規模的自監督學習。
推論階段是模型在部署後,根據用戶指令逐字 (Autoregressively) 創造答案的過程。